序列模型
1
音乐、语言、文本和视频都是连续的
标题“狗咬人”远没有“人咬狗”那么令人惊讶
大地震发生后,很有可能会有几次小地震
人的互动是连续的,从网上的吵架可以看出
预测明天的股价要比填补昨天遗失的股价要更困难

󰇛󰇜进行建模,使得给定模型的输入󰇛󰇜
得到 󰇛󰇜
序列󰇛󰇜出现的概率,可以用条件概率公式计算:
序列神经网络
2
依赖前 个时刻的数据,模型的参数量将随着增加指数增长,由此引入隐
变量模型 󰇛󰇜 󰇛󰇜
其中
隐状态(
hidden state
,也称
隐藏变量
(hidden variable),它存储
了时间步 的序列信息。通常,我们可以基于当前的输入和先前的隐状态
来计算时间步处的任何时间的隐状态

无隐状态的神经网络(全连接层):
󰇛 󰇜

有隐藏层的神经网络(循环神经网络):
󰇛  󰇜


在所有时间步
都是相同的
循环神经网络(RNN
3
对序列进行建模
缺点:数值不稳定
假设是一个线性函数,则有 
󰇛  󰇜

引入 捕获之间的关系,中保留了序列直到当
前时间步的历史信息,就如同当前时间步下神经网络的状态或记忆。当前时间
步中隐状态的计算过程和前一个过程相同,因此计算是循环的。
现代循环神经网络(门控循环神经网络GRU
4
门控隐状态:模型有专门的机制来确定应该何时更新隐状态,何时重置隐状态。
并且,这些机制是可学习的。门控机制的引入不仅增强了模型的表达能力,还
有效限制了数值范围,避免梯度爆炸的问题
重置门和更新门, 
将输入映射到[0,1]
候选隐状态
等于1时,
就是普通的循环神经网络
更新门在旧状态和候选隐状
态之间选择,当接近1时,
模型倾向于只保留旧状态
总之,门控循环单元具有以下两个显著特征:
重置门有助于捕获序列中的短期依赖关系
(及时丢掉过去的无用信息);
更新门有助于捕获序列中的长期依赖关系
(保留过去信息)。
现代循环神经网络(长短期记忆网络LSTM
5
长短期记忆网络的设计灵感来自于计算机的逻辑门。 长短期记忆网络引入了
忆元
memory cell),或简称为
单元
cell有些文献认为记忆元是隐状态
的一种特殊类型, 它们与隐状态具有相同的形状,其设计目的是用于记录附加
的信息。
类似门控循环神经网络,输入门、
遗忘门和输出门,也使用
将输入映射到[0,1]
和普通循环神经网络相同,
候选记忆元
由输入和隐状
态生成
输入门和遗忘门共同决定记忆的
更新(门控神经网络是二选一)
只要输出门接近1,我们就能够有效地将所有
记忆信息传递给预测部分, 而对于输出门接
0,我们只保留记忆元内的所有信息,而
不需要更新隐状态。
编码器-解码器架构
6
前述的循环神经网络很好的实现了序列数据的建模,对于常见的序列到序列
题(例如机器翻译),其输入序列和输出序列的长度都是可变的,为了处理这
种类型的输入和输出,设计了编码器——解码器架构:
编码器(Encoder):接受一个长度可变的序列作为输入,并将其转化为具有固
定形状的编码状态(或者说将输入映射到某个向量空间)。
解码器(Decoder):将固定形状的编码状态映射到长度可变的序列(将向量空
间的向量逆映射回人类理解的数据结构)。
基于循环神经网络的编码器-解码器Seq2Seq学习)
7
以机器翻译为例,介绍如何使用编码器——解码器架构实现Seq2Seq的学习
如图是使用RNN作为编码器和解码器的机器翻译模型,其中<eos><bos>分别
表示序列的结束和开始。RNN编码器使用长度可变的序列作为输入,将其转换
为固定形状的隐状态(将输入编码到隐状态)。然后独立的RNN解码器基于输
入序列的编码信息和输出序列已经看见的或生成的词元来预测下一个。
编码器:
首先将输入编码为各个时间步的隐状态

根据隐状态生成上下文变量
 󰇛󰇜
解码器:
基于上一次的预测、上下文生成隐状态
󰆓󰆓
根据󰆒时刻的隐状态生成预测值(全连
接层)
󰇛󰆓 󰇜
图中的例子 ,只用到了最后一个隐状态
基于循环神经网络的编码器-解码器Seq2Seq学习)
8
编码器
首先将输入编码为各个时间步的隐状态

根据隐状态生成上下文变量
 󰇛󰇜
解码器
基于上一次的预测、上下文生成隐状态
󰆓󰆓
根据󰆒时刻的隐状态生成预测值(全连
接层)
󰆓 󰇛󰆓 󰇜
注意力机制(Attention
9
注意力是一种稀缺资源,因为生物的精力有限,将注意力分配到感兴趣的事情
上才能提高能量的利用效率。
生物学上的注意力提示:非自主性提示自主性提示
非自主性提示(红色咖啡杯) 自主性提示(喝完咖啡读书)
注意力机制(Attention
10
基于生物注意力提示设计的神经网络注意力机制框架
意力机制通过注意力汇聚将
查询
性提结合在
一起,实现对
(感官输入)的选择倾向
注意力汇聚的一般表达: 
其中是查询,󰇛󰇜是键值对,注意力汇聚是的加权平均,将查询和键
之间的关系建模为注意力权重
相当于动态加权,
权重在推理时生成
注意力机制(Attention
11
注意力汇聚的数学表达:
假设有一个查询 个“键-值”对 󰇛󰇜,其中
.注意力汇聚函数就被表示成值的加权和:


其中查询和键的注意力权重(标量)是通过注意力评分函数将两个向量映
射成标量,再经过运算得到的
󰇛󰇜 󰇛󰇛󰇜󰇜 󰇛󰇛󰇜󰇜

󰇛󰇛󰇜󰇜 注意力的
主要实现
将注意力转化为
概率分布(稳定
的分布可以加快
训练过程)
注意力机制(Attention
12
注意力汇聚的数学表达:
󰇛󰇛󰇜󰇛󰇜󰇜

󰇛󰇜 󰇛󰇜 󰇛󰇛󰇜󰇜 󰇛󰇛󰇜󰇜

󰇛󰇛󰇜󰇜
两种常见的注意力评分函数:
当查询和键是不同长度的矢量时,可以使用加性注意力作为评分函数。 给定查
和键
加性注意力
additive attention的评分函数为:
󰇛󰇜
󰇛󰇜
其中可学习的参数是   。通过将长度不
同的映射到相同的空间,使用累加将它们连接起来,而后使用经过一个多层
感知机(MLP)(对应公式中的权重)得到查询和键的相关性。
使用点积可以得到计算效率更高的评分函数,但是点积操作要求查询和键具有
相同的长度,为确保无论向量长度如何, 点积的方差在不考虑向量长度的情
况下仍然是1 我们再将点积除以
缩放点积注意力
scaled dot-
product attention评分函数为:
󰇛󰇜 
加性注意力相当于神经网络自己去寻找之间的相似度联系,而缩放点积注意
力则是人根据经验设计的相似度关系。
注意力机制(Attention+RNN
13
在前面提到的机器翻译模型中,在编码器和解码器之间交流信息的上下文
 表示只关注输入序列最后一个数据。然而实际上,输入序列󰆒可能与任意
时刻的输入都有关系,将上下文替换为带注意力的上下文:
在每个时间步󰆒都要重新生成上下文。其中时间步󰆒时的解码器隐状态󰆓
是查询,编码器隐状态即是键也是值,注意力评分使用加性注意力
󰆓

󰇛󰆓󰇜
注意力机制(Attention+RNN
14
人工智能指由人制造出来的机器所表现出来的智慧
Artificial intelligence refers to the intelligence of a machine made by a human
beings
编码器
[0.03,0.2,04]
BOS [0.00,0.0,0.4]
编码器
[0.03,0.2,04][0.03,0.2,04]
编码器
[0.03,0.2,04][0.03,0.2,04]
t0
t1
t2
[0.03,0.2,04]
[0.03,0.2,04]
[0.03,0.2,04]
记忆缓存
[0.03,0.2,04]
……
解码器
Intelligence
Refers
[0.63,0.02,04]
intelligence
[0.03,0.2,04]
+
[0.53,0.87,0.6]
[0.03,0.02,0.4]
t1
……
注意力机制(Attention+RNN
15
人工智能指由人制造出来的机器所表现出来的智慧
Artificial intelligence refers to the intelligence of a machine made by a human
beings
t2
[0.28,0.02,0.4]
[0.53,0.87,0.6]
[0.03,0.02,0.4]
记忆缓存
[0.03,0.42,0.4]
……
解码器
Artificial
intelligence
[0.03,0.2,04]
Artificial
[0.63,0.7,0.4]
+
[0.03,0.42,0.4]
[0.28,0.02,0.4]
……
t0
自注意力( self-attention
16
上面的例子中,查询、键和值都来自以RNN为基础的编码器和解码器。然而
RNN每次只能输入一个时刻的数据,无法实现并行计算。考虑对所有的输入数
据使用注意力机制进行加权求和,也可以实现类似RNN的效果,这就是
自注意
力(
self-attention
Y_1 Y_2
X_1 X_2
Y_3 Y_4
X_3 X_4
Y_5
X_5
Y_1
X_1 X_2
Y_3 Y_4
X_3 X_4
Y_5
X_5
Y_1
RNN Self-attention
RNN的序列Y一样,self-attention的输出序列Y也包含
输入X之间的关联信息。
值得注意的是,self-attention也可以看到后面的信息(双
RNN也可以实现这个效果)
Self-attention没有RNN对前一个时刻的数据依赖问题,
则可以实现大规模并行
自注意力( self-attention
17
上面的例子中,查询、键和值都来自以RNN为基础的编码器和解码器。然而
RNN每次只能输入一个时刻的数据,无法实现并行计算。考虑对所有的输入数
据使用注意力机制进行加权求和,也可以实现类似RNN的效果,这就是
自注意
力(
self-attention
The animal didn't cross the street
because it was too tired
The animal didn't cross the street
because the animal was too tired
Attention
自注意力( self-attention )计算过程
18
Self,自学习输入XQKV的建立过程
自注意力( self-attention )计算过程
19
Attention,汇聚注意力(加权求和)
多头自注意力( self-attention
多头注意力其实就是有更多不同的QKV建立过程
20
多头自注意力( self-attention
每一头都有一个有关输入的注意力输出
21
每个单词产生了8个向量(8个注意力头)
多头自注意力( self-attention
我们希望每个单词仍然对应一个向量,以降低后续计算量
22
输出Z可以看成是所有头的信息的融合
多头自注意力( self-attention
总结:
23
多头注意力
24
在实践中,当给定相同的查询、键和值的集合时, 我们希望模型可以基于相同
的注意力机制学习到不同的行为 然后将不同的行为作为知识组合起来 捕获
序列内各种范围的依赖关系 (例如,短距离依赖和长距离依赖关系)。 因此,
允许注意力机制组合使用查询、键和值的不同
子空间表示
representation
subspaces可能是有益的
用独立学习得到的组不同的
线性投影
linear projections来变换查询、键和
󰇛󰇛󰇜󰇛󰇜󰇛󰇜󰇜
多头注意力
25
人工智能指由人制造出来的机器所表现出来
的智慧
名词 动词
人工,智能,人,
机器,智慧
制造出来,表现
出来
有关多头注意力的理解:神经网络从不同的角度挖掘信息
对比卷积神经网络、循环神经网络和自注意力
26
并行计算和
长序列计算慢
最短的最大路径长度
Transformer
27
Transformer完全基于注意力机制,
没有任何卷积层或循环神经网络层。
Transformer的编码器和解码器是基
于自注意力的模块叠加而成的
每个层都有两个子层(子层表示为
sublayer)。第一个子层是
多头自注意力
multi-head self-attention)汇聚;第二个
子层是
基于位置的前馈网络
position-wise
feed-forward network
&规范化进行残差连接归一化
加的操作参考率ResNet的残差连接
归一化是保证输入数据的分布特征稳定,
利用模型收敛,不同于CV任务,序列任
务中常用的是Layer-Norm*
*Batch and Layer Normalization | Pinecone
Transformer
28
1.嵌入层(Embedding
将非结构数据转为结构数据(向量)
One-hot编码:
Car -> [1,0,…,0]
Vehicle -> [0,1,…,0]
Onehot编码出的单词之间是独立分布的,体现不了关
联性
向量编码:
Car -> [0.9,0.2,…,0]
Vehicle -> [0.8,0.3,…,0]
使用神经网络或其它统计学方法进行编码,具有相近
意义的单词所编码出的向量是近似的
嵌入层就是一个查找表,输入一个单词返回
所存储的对应的向量
Transformer
29
2.位置编码(Position Encoding
由于Self-Attention同时并行输入n个样本,缺少位置
信息,因此增加位置编码。
 󰇛

󰇜  󰇛

󰇜
0000
1001
2010
3011
类似二进制编码,对应
位置变化的频率不同
Transformer
30
3.多头注意力(Multi-Head Attention
MatMul
Scale
Softmax
MatMul
Linear Linear Linear
MatMul
Scale
Softmax
MatMul
Linear Linear Linear
X X X
Q K V
Wq Wk Wv
Concat
Linear
MatMul
Scale
Softmax
MatMul
Linear Linear Linear
EncoderAttention
就是普通的Attention
Transformer
31
3.多头注意力(Multi-Head Attention
MatMul
Scale
Softmax
MatMul
Linear Linear Linear
Mask
MatMul
Scale
Softmax
MatMul
Linear Linear Linear
Mask
X X X
Q K V
Wq Wk Wv
Concat
Linear
MatMul
Scale
Softmax
MatMul
Linear Linear Linear
Mask
Decoder中有个Masked
Multi-Head Attention,训练
MASK防止模型看到未来
的信息:
Y_1
X_1 X_2
Y_3 Y_4
X_3 X_4
Y_5
X_5
Y_1
Transformer
32
3.多头注意力(Multi-Head Attention
MatMul
Scale
Softmax
MatMul
Linear Linear Linear
Mask
MatMul
Scale
Softmax
MatMul
Linear Linear Linear
Mask
X X X
Q K V
Wq Wk Wv
Concat
Linear
MatMul
Scale
Softmax
MatMul
Linear Linear Linear
Mask
Decoder中两个Attention
一个是Self-Attention,另一
个是Cross-AttentionKey
Value来自Encoder
Artificial
Intelligence
refers
to
Transformer
33
4.&规范化
加:借鉴Resnet
规范化:稳定数据分布
ResNet引入残差单元,使得深层网络的学习变得简单
规范化:让数据分布特征稳定
󰇟󰇠

:均值
󰇟󰇠:方差
:可学习参数
防止分母为0
Transformer
34
5.逐位前馈网络
逐位:基于位置的(每个位置所应用的变换是相同的)
前馈网络:前连接层

X1
X2
Y1
Y2
W
Transformer
35
Transformer中的Encoder-Decoder架构
每个Encoder包含:一个多头自注意力,一个FFN
每个Decoder包含:一个Masked的多头自注意力,
一个多头交叉注意力,一个FFN
Transformer
36
Transformer中的Encoder-Decoder架构
Transformer的加速
37
[1] X. Yang, B. Yan, H. Li, and Y. Chen, “ReTransformer: ReRAM-based processing-in-memory architecture for
transformer acceleration,” in Proceedings of the 39th International Conference on Computer-Aided Design, in ICCAD ’20.
New York, NY, USA: Association for Computing Machinery, Dec. 2020, pp. 19. doi: 10.1145/3400302.3415640.
针对通用CNNRNN设计的加速器不能直接用于Transformer[1]:
Transformer中有大量矩阵乘矩阵,而且其中的参数都是来自上一层的中间结
果,先前设计的加速器需要重新编程计算阵列的权重。
Transformer引入了缩放点积注意力,计算模式更复杂。
先前设计的加速器流水线粒度是层,对于transformer来说较粗。
本文的贡献:
提出了ReTransformer,基于ReRAM的存内计算架构,用于加速
Transformer的推理
使用矩阵分解优化缩放点积注意力中的矩阵乘法,消除数据依赖,降低计算
延迟
使用存内计算实现的逻辑计算来实现混合softmax
子矩阵级的流水线粒度
Transformer的加速
38
[1] X. Yang, B. Yan, H. Li, and Y. Chen, “ReTransformer: ReRAM-based processing-in-memory architecture for
transformer acceleration,” in Proceedings of the 39th International Conference on Computer-Aided Design, in ICCAD ’20.
New York, NY, USA: Association for Computing Machinery, Dec. 2020, pp. 19. doi: 10.1145/3400302.3415640.
是中间计算结果,需要在运行中对
ReRAM重新编程,造成较高的写延迟
Softmax的计算涉及除法和指数运算,如
何高效的使用存内计算实现
计算资源的利用率低(数据依赖太多)
Transformer的加速
39
ReTransformer架构:
[1] X. Yang, B. Yan, H. Li, and Y. Chen, “ReTransformer: ReRAM-based processing-in-memory architecture for
transformer acceleration,” in Proceedings of the 39th International Conference on Computer-Aided Design, in ICCAD ’20.
New York, NY, USA: Association for Computing Machinery, Dec. 2020, pp. 19. doi: 10.1145/3400302.3415640.
Transformer的加速
40
[1] X. Yang, B. Yan, H. Li, and Y. Chen, “ReTransformer: ReRAM-based processing-in-memory architecture for
transformer acceleration,” in Proceedings of the 39th International Conference on Computer-Aided Design, in ICCAD ’20.
New York, NY, USA: Association for Computing Machinery, Dec. 2020, pp. 19. doi: 10.1145/3400302.3415640.
使用矩阵分解解决写延迟问题

Transformer的加速
41
[1] X. Yang, B. Yan, H. Li, and Y. Chen, “ReTransformer: ReRAM-based processing-in-memory architecture for
transformer acceleration,” in Proceedings of the 39th International Conference on Computer-Aided Design, in ICCAD ’20.
New York, NY, USA: Association for Computing Machinery, Dec. 2020, pp. 19. doi: 10.1145/3400302.3415640.
基于ReRAM的混合Softmax
ReRAM可以实现逻辑运算:
NORXOR
1:高电导,0:低电导,X:未知状态
Transformer的加速
42
[1] X. Yang, B. Yan, H. Li, and Y. Chen, “ReTransformer: ReRAM-based processing-in-memory architecture for
transformer acceleration,” in Proceedings of the 39th International Conference on Computer-Aided Design, in ICCAD ’20.
New York, NY, USA: Association for Computing Machinery, Dec. 2020, pp. 19. doi: 10.1145/3400302.3415640.
基于ReRAM的混合Softmax
ReRAM实现最大值的查找,而后
使用查找表得到最终的softmax
算结果
Transformer的加速
43
[1] X. Yang, B. Yan, H. Li, and Y. Chen, “ReTransformer: ReRAM-based processing-in-memory architecture for
transformer acceleration,” in Proceedings of the 39th International Conference on Computer-Aided Design, in ICCAD ’20.
New York, NY, USA: Association for Computing Machinery, Dec. 2020, pp. 19. doi: 10.1145/3400302.3415640.
更细粒度的调度
使用分块矩阵
Transformer的加速
44
[1] X. Yang, B. Yan, H. Li, and Y. Chen, “ReTransformer: ReRAM-based processing-in-memory architecture for
transformer acceleration,” in Proceedings of the 39th International Conference on Computer-Aided Design, in ICCAD ’20.
New York, NY, USA: Association for Computing Machinery, Dec. 2020, pp. 19. doi: 10.1145/3400302.3415640.
降低功耗 性能:467.68GOPs/s/W,
23.31xCPU, 3.25xPipeLayer
降低功耗:1086xCPU,
2.82xPipeLayer
Transformer的加速
45
[2] F. Tu et al., “16.1 MuITCIM: A 28nm 2.24 uJ/Token Attention-Token-Bit Hybrid Sparse Digital CIM-Based Accelerator
for Multimodal Transformers,” in 2023 IEEE International Solid- State Circuits Conference (ISSCC), Feb. 2023, pp. 248
250. doi: 10.1109/ISSCC42615.2023.10067842.
Attention Sparsity
Token Sparsity
Bit Sparsity
视觉问答任务(Visual Question Answer
46
什么是VQA
VQA 介于图像理解(CV)和自然语言处理(NLP)的交集。VQA 任务的目的
是开发出一种系统来回答有关输入图像的特定问题。答案可以采用以下任何形
式:单词,短语,二元答案,多项选择答案或文本填空。
MRC:机器阅读理解(Machine Reading Comprehension
Pure VQA一般没有引入额外的context
只是单纯的{图,问句,回答}
Multi-modal MRC任务引入了额外的知
识,更注重自然语言的理解
视觉问答任务(Visual Question Answer
47
VQATQA的区别:数据集信息形式不同
视觉问答任务(Visual Question Answer
48
Why VQA
目前的多数图像任务并不完全理解图像所包含的信息。比如图像分类,物体
检测、动作识别
VQA的问题可以是任意的,实际上包含了一系列的CV问题:
Object recognition - What is in the image?
Object detection - Are there any cats in the image?
Attribute classification - What color is the cat?
Scene classification - Is it sunny?
Counting - How many cats are in the image?
更复杂的问题:
Spatial relationship - What is between the cat and the sofa?
Common sense reasoning questions - Why is the girl crying?
...
因此, VQA相比CV实现起来也更加困难
视觉问答任务(Visual Question Answer
49
主流模型与方法:
从问题中提取特征(LSTMGRUBERT
从图像中提取特征(VGGNetResNetGoogLeNet
结合这些特征来生成一个答案(分类和生成)
[1]A. Radford, J. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, G.
Krueger and I. Sutskever, "Learning Transferable Visual Models From Natural Language Supervision,"
视觉问答任务(Visual Question Answer
50
无注意力机制的深度学习模型
Zhou B, Tian Y, Sukhbaatar S, et al. Simple baseline for
visual question answering[J]. arXiv preprint
arXiv:1512.02167, 2015.
CNN
BoW
Ma L, Lu Z, Li H. Learning to answer questions from image using
convolutional neural network[C]//Proceedings of the AAAI
Conference on Artificial Intelligence. 2016, 30(1).
CNN only
视觉问答任务(Visual Question Answer
51
无注意力机制的深度学习模型
Malinowski M, Rohrbach M, Fritz M. Ask your neurons: A
deep learning approach to visual question answering[J].
International Journal of Computer Vision, 2017, 125: 110-
135.
CNN
LSTM
Antol S, Agrawal A, Lu J, et al. Vqa: Visual question
answering[C]//Proceedings of the IEEE international conference on
computer vision. 2015: 2425-2433.
CNN
LSTM
视觉问答任务(Visual Question Answer
52
基于注意力机制的深度学习模型
Zhu Y, Groth O, Bernstein M, et al. Visual7w: Grounded
question answering in images[C]//Proceedings of the IEEE
conference on computer vision and pattern recognition.
2016: 4995-5004.
CNN
LSTM
Yang Z, He X, Gao J, et al. Stacked attention networks for image
question answering[C]//Proceedings of the IEEE conference on
computer vision and pattern recognition. 2016: 21-29.
CNN
LSTM
视觉问答任务(Visual Question Answer
53
基于Transformer的深度学习模型
单流模型和双流模型:
QKV都是同一个输入 QKV是不同输入
视觉问答任务(Visual Question Answer
54
基于Transformer的深度学习模型
Li L H, Yatskar M, Yin D, et al. Visualbert: A simple and performant
baseline for vision and language[J]. arXiv preprint arXiv:1908.03557,
2019.
多模态CLIP
55
[1]A. Radford, J. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, G.
Krueger and I. Sutskever, "Learning Transferable Visual Models From Natural Language Supervision,"
对比学习:
拉近正样本之间的向量
拉远负样本之间的向量
距离度量:欧氏距离、余弦距离或汉明距离
准备文本数据,实现图像分类
准备图像数据,可以实现文本搜图
多模态ImageBind
56
两大编码器结构:CNNTransformer,基本上实现所有信息的编码工作
[1] R. Girdhar et al., “ImageBind: One Embedding Space To Bind Them All.” arXiv, May 31, 2023. doi:
10.48550/arXiv.2305.05665.
特征提取网络
/.视频
ViT
OmniMAE
ViT结构。
ViT
ViT
采用
CLIP中的文本特征提取模块
ViT
AST对音频进行编码,并使用
mel-spectrogram bins将以
2 秒音频转换为频谱图。由于
16
ViT
Transformer
XY Z 轴上的加速度计和
IMU 信号。我们
5 秒的剪辑产生 2K 时间步长的
读数,这些读数使用内核大小为
的一维卷积进行投影。然后用
编码。
多模态ImageBind
57
[1] R. Girdhar et al., “ImageBind: One Embedding Space To Bind Them All.” arXiv, May 31, 2023. doi:
10.48550/arXiv.2305.05665.
跨模态检索
模态组合运算
跨模态生成
多模态ImageBind
58
[1] R. Girdhar et al., “ImageBind: One Embedding Space To Bind Them All.” arXiv, May 31, 2023. doi:
10.48550/arXiv.2305.05665.
将不同模态的信息通过对比学习投影到图像嵌入的空间
相互之间就实现了对齐
多模态在边缘端应用
59
人脸识别
Model
[0.10, 1.200, 1.23…]
[0.10, 1.200, 1.23…]
[0.10, 1.200, 1.23…]
[0.10, 1.300, 1.23…]
Model
0.21
0.95
0.10
多模态在边缘端加速
60
[1] H.-W. Hu et al., “ICE: An Intelligent Cognition Engine with 3D NAND-based In-Memory Computing for Vector Similarity
Search Acceleration,” in 2022 55th IEEE/ACM International Symposium on Microarchitecture (MICRO), Oct. 2022, pp. 763
783. doi: 10.1109/MICRO56248.2022.00058.
欧氏距离:
归一化后为1,因此主要计算为 ,即VVM,向量乘向量
多模态在边缘端加速
61
[1] H.-W. Hu et al., “ICE: An Intelligent Cognition Engine with 3D NAND-based In-Memory Computing for Vector Similarity
Search Acceleration,” in 2022 55th IEEE/ACM International Symposium on Microarchitecture (MICRO), Oct. 2022, pp. 763
783. doi: 10.1109/MICRO56248.2022.00058.
Thanks!
62